[2024年8月7日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この3週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Future-Proof Your Data Stack: Top Data Engineering Trends of 2024
Airbyte社により、2024年のデータエンジニアリングのトレンドをまとめた記事が出ていました。
具体的には、以下の項目についてトレンドとして言及があります。Airbyteの機能となぞらえて説明がされているため少しAirbyteのポジショントーク感もありますが、内容は私も同意できるところがあったため、参考にはなると思います。
- AI Integration: Transforming the Data World
- AIの活用のためには、高品質なデータ管理が前提条件である
- Enhancing Security and Governance
- AIやエンドユーザーには見せるべきデータだけを見せるように、暗号化、マスキング、権限管理などをしっかり行う必要がある
- Streamlining Collaboration with Data Contracts
- エンジニアリングチームがテーブル定義の変更をかってに行うことによりデータチームに影響が及ぶ問題を解決するためのData Contracts
- The New Wave of Orchestrators: Moving Beyond Airflow
- Dagster、Prefect、KestraなどAirflowに代わるツールが多くリリースされている
The SaaS Trends Report Q2 2024が公開されました
SaaSの売買プラットフォームを提供するVendr社により、四半期ごとに提供される「The SaaS Trends Report」のQ2版がリリースされました。
個人的に気になったのはこのあたりです。
- DATA INTEGRATIONの分野で、Hightouchが売上1位、2位がFivetran
- Q2でSaaS Leaderboardにランクインした新規ベンダーの数が、Q1の2倍に上がった(新しい製品が多く出ており、販売実績があるということ)
- 顧客ごとの年間契約額(ACV)は、過去1年の四半期を比べても横ばい
クラスメソッドの年次イベントDevelopersIO 2024 Odysseyが開催されました
2024年7月に、クラスメソッドの年次イベントDevelopersIO 2024 Odysseyが開催されました。
本イベントではデータ関係の登壇も多くありました。下記は登壇された方々のレポートブログになりますので、気になる内容がありましたらぜひご覧ください。
Data Extract/Load
Fivetran
FivetranがPolaris Catalogとの統合機能をリリースすることを発表
Snowflakeが開発したオープンソースのIceberg CatalogであるPolaris Catalogについて、Fivetranが統合機能をリリースすることを発表しました。
現在のFivetranでもS3 DestinationでIcebergとして書き出す機能を提供していますがこれはAWSのGlue Catalogを用いているため、Polaris Catalogに対応すればSnowflake内で閉じたカタログ管理が出来るようになるはずです。
※参考までに、現在のS3 Destinationに関する弊社のブログを下記に載せておきます。
SmartHRのLite Connectorがリリース
ユーザーからリクエストをもらって開発がされるLite Connectorで、SmartHRのコネクタが新しくリリースされました。少しずつですが、日本独自のコネクタも増えてきていますね!
Data Warehouse/Data Lakehouse
全般
Open Table Formatに関するポッドキャスト「OTF Talk」
AWSに所属している@simosakoさんにより、Open Table Formatに関するポッドキャスト「OTF Talk」が始まりました。
OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです
Snowflake
Polaris Catalogがオープンソースとしてリリース
今年のSnowflake Summitで発表された、Polaris Catalogがオープンソースとしてリリースされました。
Snowflake社からSaaS版に該当するPolaris Catalogも提供されており、Snowflakeアカウントを持っていなくてもPolaris Catalogのアカウントを申請することも出来ます。
SaaS版のPolaris Catalogを使用したチュートリアルも用意されています。
また、Dremio社からもPolaris Catalogに関する解説記事が出ていました、こちらも参考になると思います。
テキストデータに対するRAGを簡単に実装できる「Cortex Search」がパブリックプレビュー
今年のSnowflake Summitで発表された、Cortex Searchがパブリックプレビューとなりました。(現在はAWSのUSリージョンのSnowflakeアカウントでしか利用できない点だけご注意ください。)
Cortex Searchは、大規模言語モデル (LLM) を活用した検索拡張生成 (RAG) を簡単に構築でき、Embedding、インフラのメンテナンス、パラメータの調整、インデックスの更新などを気にすることなく、構築・運用がすることができる機能です。
実際に私もチュートリアルに沿ってCortex Searchを試してみました、Cortex Searchを使えば最初の設定だけ行えば裏側の調整はよしなにやってくれるため、とても運用が楽になると思います!
Snowsight上の操作でLLMモデルのFine-Tuningが行えるCortex Fine-Tuningがパブリックプレビュー
今年のSnowflake Summitで発表されたCortex Fine-tuningについて、Snowsight上でFine-Tuningを行える機能が新しくパブリックプレビューとなりました。
SnowflakeのRBACについてのベストプラクティス
SELECT社により、SnowflakeのRBACについてのベストプラクティスをまとめた記事が出ていました。
実例も交えて、Access RoleとFunctional Roleをどのように構成していくかもまとめられていて参考になると思います。
BigQuery
table explorerがパブリックプレビュー
各カラムがどのような値から構成されているかをざっと確認することができる、table explorerがパブリックプレビューとなりました。
下図が実際の画面となりますが、各カラムの値にどのようなものがあって、何レコード存在しているかの集計値を見ることが出来ます。
continuous queriesがパブリックプレビュー
BigQueryで新しく入ってきたレコードに対して、指定したクエリやエクスポート処理を自動的に行うことが出来るcontinuous queriesがパブリックプレビューとなりました。
具体的には、INSERT文を実行、Pub/Subトピックへのエクスポート、Bigtableへのエクスポート、BQMLの一部の関数、などを実行できるようです。
Data Transform
dbt
dbt Labs社内でのdbt Semantic Layerの導入について
dbt Labs社の公式ブログより、dbt Semantic Layerの導入したことによって得られた成果と得られた教訓(dbt Semantic Layerのプラクティス)まとめた記事が出ていました。
成果としては、OKRパフォーマンスを見るスライドの作成の時間やアドホックなARRに関する質問の対応時間が削減され、データの品質と信頼性も向上したとのことです。
Business Intelligence
Looker Studio
Looker Studioの魅力と便利な使い方を紹介します
@syou6162さんにより、Looker Studioの特徴や使い方をまとめた記事が出ていました。
具体的には下記の内容についてまとめられています。充実度が凄いのでLooker Studio使う人はまずこの記事を見ればよいのでは、と感じます。
- 描画できるグラフ
- 通知やエクスポート
- フィルタ周り
- 相対比較
- 権限設定
- ダッシュボード作成の手順
Tableau
The Future of Tableauが開催予定
「The Future of Tableau」というウェビナーが現地時間2024年8月15日に開催されます。
Salesforce社のCEOであるMarc氏のXの投稿によると、「The all-new Tableau is on the horizon」とのことなのでどのような発表がされるか気になるところです。
Notebook
Hex
スプレッドシートの関数のような集計・計算が行えるParameterized Calculations機能を発表
Hexの新機能として、スプレッドシートの関数のような集計・計算が行えるParameterized Calculations機能が発表されました。
個人的には、Sigmaに近い印象を受けましたね。
Data Catalog
Select Star
CSVでのGlossary(用語集)のインポートとエクスポート機能を発表
Select Starの新機能として、CSVでのGlossary(用語集)のインポートとエクスポート機能を発表しました。
Glossaryは汎用的なフォーマットで管理できると他の媒体にも使いやすくなると思うので、個人的には嬉しい機能ですね。
Data Activation (Reverse ETL)
Census
Universal Data Platformについて
Censusから、「今後Universal Data Platformを提供していく」という方向性を打ち出したブログが2つ出ていました。
Universal Data Platformについては、ブログ上に掲載のあった下図がわかりやすいと思います。
Data Orchestration
Orchestra
Orchestraが100万ポンドの資金調達を実施
データオーケストレーションのサービスを提供する新興企業であるOrchestraが、新しく100万ポンドの資金調達を行ったことを発表しました。
Maestro
Netflix社が使用しているワークフローオーケストレーターのMaestroがオープンソース化
Netflix社が、データパイプラインや機械学習モデルのトレーニングパイプラインなどを管理するために設計・開発したワークフローオーケストレーターである「Maestro」のソースコードが一般公開されました。